查看原文
其他

基因组分析流程准确度评价专题 [1] - GIAB简介

2017-05-15 阿尔的太阳🌞 生信之光

      


      大家好,我是阿尔的太阳,作为生信技能树的忠实粉丝,“我的基因组”直播大家一定不陌生吧,在跟随学习的过程中,我发现,测序的实验流程相对来说标准化很多,有相应的protocol和试剂盒, 但是下机的生信分析流程就很难标准化。

        仅仅fastq-bam-vcf 这一上游分析,每一个步骤就有很多种变化存在, 仅仅是基因组germline的 短突变【snvs & indels】 的检出这一条常见流程,中间步骤就可以有非常多的选择,多到让人眼花,我随便选了几个常用的,终于搞好了步骤/软件/参数,测试成功,CALL 出VCF了 。


    但是这时,我的心里产生了一个大大的问号,也可能是很多小伙伴都想问的

    这条流程的准确度,究竟怎么样?


    有人说,哈,做实验验证啊,Sanger测序是金标准。

    试问WGS你怎么验证? 涵盖人体全基因组有约30亿bp , 350W + snvs , 50W + indels , 还存在相当面积的MNPs [相邻连续突变]。 做实验验证,咋做?

    又有人说:你可以使用模拟生成的数据啊,那是知道标准答案的。但是模拟的数据和真实的数据是不同的。


    那,如何得到一个,知道“标准参考答案”的,一个真实的样本数据,当作BENCHMARK,来对分析流程做一个测评呢?


    这很重要,需要有一个统一的标准,来对分析流程的准确度进行质量控制

    

    因为有文献报道过

    不同分析流程和测序技术找出的突变结果

    一致性并不高

    究竟谁是对的?


----------------------------------------------------------------------------------------------------------

   

    因此本公众号推出

   分析流程准确度评价专题

    和大家分享如何获取和利用标准参考材料

    以及动手对各种当前开源常见流程

    进行评价和调试

   最终获得一个,相对高准确度的分析流程


----------------------------------------------------------------------------------------------------------

    通过搜索,我终于找到了这个- 瓶中基因组计划


   NIST「美国国家标准与技术研究院」

   瓶中基因组计划-GIAB

   旨在构建已知答案的高可信度标准参考基因组。

     


                    文章在2014年发了nature biotech

     当时的版本是v2.16 但后来一直在不断完善和更新

     现在最新的是版本是v3.3.2

     NA12878原属于千人基因组计划

    为美国犹他地区血统的一名女性捐献的DNA样本

    已经过多种不同测序技术反复重复测序,是目前公开已知研究最透彻的人类2倍体基因组。也就是说,这个人的很多突变都是已知的了


      NIST和瓶中基因组计划还在努力将其他四个基因组打造成参考材料,包括德系犹太人血统的一家三口(父亲、母亲和儿子)以及亚洲血统的一家人中的儿子。


     但目前最完善的还是NA12878[HG001]的样本

      

      利用它,实验室能够评估全基因组测序、外显子组测序和靶向检测的性能。

       

      除了GIAB, Illumina公司也构建了类似的NA12878高可信度参考突变集合,称为“白金基因组”。


    



      这个高可信度标准参考突变集合在以下的链接获取:



附录:

----------------------------------------------------------------------------------------------------------


GIAB官方主页:


     GIAB GitHub :

          https://github.com/genome-in-a-bottle

     GIAB Homepage :

          http://jimb.stanford.edu/giab-resources

     


瓶中基因组计划 GIABv3.3.2 最新版本NA12878

 vcf & bed 文件 

下载地址:

#GIABv3.3.2
#ftp://ftp-trace.ncbi.nlm.nih.gov/giab/ftp/release/NA12878_HG001/NISTv3.3.2
#vcf ftp://ftp-trace.ncbi.nlm.nih.gov/giab/ftp/release/NA12878_HG001/NISTv3.3.2/GRCh37/HG001_GRCh37_GIAB_highconf_CG-IllFB-IllGATKHC-Ion-10X-SOLID_CHROM1-X_v.3.3.2_highconf_PGandRTGphasetransfer.vcf.gz ftp://ftp-trace.ncbi.nlm.nih.gov/giab/ftp/release/NA12878_HG001/NISTv3.3.2/GRCh37/HG001_GRCh37_GIAB_highconf_CG-IllFB-IllGATKHC-Ion-10X-SOLID_CHROM1-X_v.3.3.2_highconf_PGandRTGphasetransfer.vcf.gz.tbi
#bed ftp://ftp-trace.ncbi.nlm.nih.gov/giab/ftp/release/NA12878_HG001/NISTv3.3.2/GRCh37/HG001_GRCh37_GIAB_highconf_CG-IllFB-IllGATKHC-Ion-10X-SOLID_CHROM1-X_v.3.3.2_highconf_nosomaticdel.bed
#md5sum ftp://ftp-trace.ncbi.nlm.nih.gov/giab/ftp/release/NA12878_HG001/NISTv3.3.2/GRCh37/md5sum


下载的文件需要经过md5sum check 以确保文件的完整性


白金参考基因组 下载链接

#platinumgenomes #https://www.illumina.com/platinumgenomes.html

#vcf ftp://ussd-ftp.illumina.com/2016-1.0/hg19/small_variants/NA12878/NA12878.vcf.gz ftp://ussd-ftp.illumina.com/2016-1.0/hg19/small_variants/NA12878/NA12878.vcf.gz.tbi


下载的文件经过md5sum check 以确保文件的完整性


可以分别获取到高可信突变结合和BED文件


大家可以先动手探究一下vcf 和 bed 文件的情况

欢迎后台交流



参考文献:

Zook JM, Brad Chapman et al. 2014 Integrating human sequence data sets provides a resource of benchmark SNP and indel genotype calls Nature Biotechnology 32, 246–251 (2014) doi:10.1038/nbt.2835 Zook JM,Catoe D et al. 2016 Extensive sequencing of seven human genomes to characterize benchmark reference materials. Sci Data. 2016 Jun 7;3:160025. doi: 10.1038/sdata.2016.25. Zook JM, Salit ML et al. 2016 Development and Characterization of Reference Materials for Genetic Testing: Focus on Public Partnerships. Ann Lab Med. 2016 Nov;36(6):513-20. doi: 10.3343/alm.2016.36.6.513. Eberle, MA et al. 2017 A reference data set of 5.4 million phased human variants validated by genetic inheritance from sequencing a three-generation 17-member pedigree. Genome Research 27: 157-164. doi:10.1101/gr.210500.116


生物信息前沿资讯

原创干货分享

尽在生信之光🌞






    


    

    


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存